CVモデルのアンサンブルにするか全データの full-train にするか
Xユーザーのpocketさん: 「こういう類の、初めて機械学習で精度を高めたくなった時に直面するような疑問は、大体kaggleのdiscussionかJackさんの資料に書いてある。 全データでSA。round数どうするかという問題には各FoldがESで止まった平均をデータ量に比例して増やして止めるのが教義。」 / X
学習データ全体を使う
Early Stopping で止まった平均をデータ量に比例して増やす
5-Fold なら、ES の平均 * 5/4 かな?
Kaggle : PSPコンペ復習 Python - Qiita
このリークの話は
Feature Importanceによる特徴量選択とリーク - Speaker Deck
かな
各foldでCVスコアを算出する場合にもRandom seed averageを実行
各 fold の中で random seed で複数回学習 → スコア出す?
#kaggle
#ML